Web Image Context Extraction: Methoden und Evaluation
نویسنده
چکیده
Images on the Web come in hand with valuable textual content on hosting web pages that can be exploited to generate image annotations. However, web documents are usually composed of contents to multiple topics and the context of an image makes only a small portion of the full text of the web page. In order to get qualitative descriptions, methods that are able to extract the image context become essential. Existing solutions in the literature reach from simple full text extractors to intelligent approaches that perform a page segmentation as a preprocessing step. To be able to evaluate and compare the different methods, we introduce an evaluation framework that includes a ground truth dataset consisting of twelve different testing collections. The accordance between extraction output and ground truth is estimated using newly adapted evaluation measures that are a part of the framework. Most of the existing methods are based on simple heuristics and hence in general can not deal with the variety of different web page designs. Our first approach is therefore more adaptive: it arranges first the smallest content units of a web page to possible context candidates (articles) and assigns then to each image of the web page the most suitable candidate. This approach is extended by concepts that are able to handle the two-dimensional HTML-tables that are frequently used as layout elements. Another contribution is an image context extraction method that is based on page segmentation as a preprocessing step. By separating a web page into blocks of coherent topics, the images just can be associated with the complete text of the common block. In an extended analysis, we investigate different approaches to solve the page segmentation task by web content clustering. Different representations for web contents are combined with various clustering approaches and evaluated. The gained experience is used to build a novel clustering-based context extraction method. Both methods achieve very good results on almost all test collections and can thus be applied as a preprocessing step in applications that can benefit from images with descriptions.
منابع مشابه
Eine komponentenorientierte Architektur für die kontext-sensitive Adaption von Web-Anwendungen
In diesem Beitrag wird ein Context Engineering-Ansatz vorgestellt, der die Integration von Methoden der ontologiebasierten Kontextmodellierung bei der Entwicklung von Web-Anwendungen systematisiert und anhand einer Systemarchitektur erläutert, wie geeignete Kontextkomponenten durch die Verwendung dieser Modelle Adaptionen durchführen, die den Benutzer bei der Suche nach relevanten Informationen...
متن کاملWalkthrough vs. Videokonfrontation - Vergleich zweier Methoden zur formativen Software-Evaluation
Für die iterative Software-Entwicklung spielt die formative Evaluation unter Einbeziehung (potenzieller) Benutzer eine wichtige Rolle. Um gute Erfolge zu erzielen und gleichzeitig den Kostenaufwand der formativen Evaluation zu rechtfertigen, ist es notwendig, möglichst effektive und effiziente Verfahren zu entwickeln bzw. zu identifizieren. Vor diesem Hintergrund wurden im Rahmen eines Kooperat...
متن کاملData Mining-Konzepte und graphentheoretische Methoden zur Analyse hypertextueller Daten
Der vorliegende Artikel hat das Hauptziel, eine verständliche Übersicht bezüglich der Einsetzbarkeit von Data Mining-Konzepten auf hypertextuellen Daten zu geben, wobei insbesondere graphentheoretische Methoden fokussiert werden. Die Anwendung von klassischen Data Mining-Konzepten, wie z.B. die Clusterund die Klassifikationsanalyse, auf webbasierte Daten wird als Web Mining bezeichnet. Ein Teil...
متن کاملAuthenticity and Revocation of Web Content using Signed Microformats and PKI
Semantically annotating web content will ease its extraction and processing by third parties. But with this processing destroys the context of the original publication. We show that because of the loss of this context information the quality of the web content is diminished. In this work we propose a Microformat to store digitally signatures. Signed micro content preserves the content’s context...
متن کاملELPI - Die Elektronische Pinwand zur Evaluation von Lehrveranstaltungen
Für die Evaluation von Lehrveranstaltungen gibt es zahlreiche Methoden. In diesem Beitrag wird ein computergestütztes System, ELPI, vorgestellt. Gegenüber gängigen Web-basierten Lösungen versucht ELPI einer gewissen Evaluationsmüdigkeit und dem Desinteresse der Studenten an derartigen Befragungen entgegenzuwirken. Dies geschieht durch bequeme Integration der Studierenden in den Evaluationsproze...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011